「時系列データ分析の基礎」についての覚え書き

データ分析

統計時系列データ分析

masuwo3

2016.06.01

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

はじめに

当記事は、沖本竜義先生の著作である「経済・ファイナンスデータの計量時系列分析(朝倉書店)」の内容をもとに、データ分析の前提となる基礎的な部分に関して、要点や定義などをまとめた覚え書きです。

あくまで覚え書き程度の内容ですので、当記事を読まれて、より詳細な内容を知りたいと思われた方は、上記の著書を入手頂ければと思います。

時系列データとは

時系列データとは、時間の推移とともに観測されるデータであり、その順序におおきな意味を持つことが特徴である。経済やファイナンスで目にすることが多く、為替レート、株価、GDPなどが例としてある。

時系列データの対照としてクロスセクションデータがある。クロスセクションデータは、ある一時点において複数のデータが取得できるという特徴を持つ。

分析の目的

時系列データの分析を行う目的として、以下のものが考えられる。

将来の平均値や変動幅などの予測
変数間の動学的関係を明らかにする
経済理論やファイナンス理論の検証

時系列データの種類

原系列

時系列データそのもののことを、原系列と呼ぶ。ある時点1からTまでに観測された原系列データは、厳密には以下のように表現される。

[latex]\{y_t\}^T_{t=1}[/latex]

表記の簡単化のために以下の様に記述されることもある。

[latex]y_t[/latex]

対数系列

原系列データに対して対数変換をかけたものを対数系列と呼ぶ。対数変換を行う理由は、原系列では定常性の仮定が満たされないデータが、変換を行うことで解決する場合が多いため。

[latex]logy_t = log(y_t)[/latex]

差分系列(階差系列)

1時点離れたデータとの差をとったデータのことを、差分系列または階差系列と呼ぶ。

[latex]\Delta y_t = y_t - y_{t-1}[/latex]

単位根過程に従ったデータの差分系列は定常過程となる。多くのファイナンスデータは単位根過程に従っているため、差分系列も定常過程となることが多い。

対数差分系列

対数系列に対して差分系列をとったものを対数差分系列と呼ぶ。対数差分系列は、一次のテイラー展開近似によって、十分に変化率が小さい場合の変化率と近似することがわかっている。

[latex]\Delta logy_t = log(y_t) - log(y_{t-1})= log(\frac{y_t}{y_{t-1}}) = log(1+\frac{y_t-y_{t-1}}{y_{t-1}}) \approx \frac{y_t-y_{t-1}}{y_{t-1}}[/latex]

連続時間においては、一次近似は正確に成立するため、対数差分系列は正確に瞬時の変化率を表すことになる。

季節調整済み系列(季調済み系列)

原系列データに対して、季節調整によって季節変動による影響を除いた系列データを季節調整済み系列または季調済み系列と呼ぶ。季節調整についての問題は難しいため、今回は詳細を省く。

基本統計量と時系列モデル

期待値(平均)

最も基本的な統計量として、期待値もしくは平均がある。期待値は各時点での時系列データが平均的にどのくらいの値をとるかを表すものであり、以下のように表現される。

[latex]\mu_t = E(y_t)[/latex]

分散とボラティリティ

分散は、各時点でのデータが期待値からどの程度までばらつく可能性があるかというものを表す統計量である。期待値を用いて、以下のように表現される。

[latex]Var(y_t) = E(y_t - \mu_t)[/latex]

また、分散の平方根をとったものを標準偏差と呼ぶ。ファイナンスの分野ではボラティリティと呼ばれることもある。ボラティリティは、リスクを計測するための指標として用いられることもある。

自己共分散

自己共分散は、同一の時系列データにおける異なる時点間での共分散を指す。例えば、1時点ずらしたそれぞれのデータについての自己共分散は以下のように求められる。

[latex]\gamma_{1t} = Cov(y_t,y_{t-1}) = E[(y_t - \mu_t)(y_{t-1} - \mu_{t-1})][/latex]

自己共分散は、時点を一定の幅でずらした場合のそれぞれのデータに対して、相関があるかどうかを示す統計量となる。
例えば、1時点ずらした場合の自己共分散が正であった場合、期待値を基準に1時点前と同じ方向に動く傾向があり、負の場合は逆向きに動く傾向があるというように解釈することができる。

k時点離れた場合の自己共分散は以下のように表現出来る。

[latex]\gamma_{kt} = Cov(y_t,y_{t-k}) = E[(y_t - \mu_t)(y_{t-k} - \mu_{t-k})][/latex]

k時点離れた時系列の自己共分散のことを、k次の自己共分散と呼ぶ。また、自己共分散をkについての関数としてみたものを自己共分散関数と呼ぶ。

自己相関係数

自己共分散の問題の1つとして、対象データの単位に依存して値が変化するという点がある。この依存をなくすために自己共分散を基準化したものを自己相関係数と呼ぶ。

[latex]\rho_{kt} = Corr(y_t, y_{t-k}) = \frac{Cov(y_t, y_{t-k})}{\sqrt{Var(y_t) \cdot Var(y_{t-k})}}) = \frac{\gamma_ {kt}}{\gamma_{0t}\gamma_{0,t-k}}[/latex]

自己相関係数をkについての関数をみたものを自己相関関数と呼び、自己相関関数をグラフに描いたものをコレログラムと呼ぶ。
自己相関関数はモデルの選択に非常に有用である。

確率過程(データ生成過程)と時系列モデル

原系列のデータをもとに以上の統計量を推定することは、変動幅や将来の値の予測を行うという時系列データ分析の目的に大きく関連する。

しかし、期待値や自己相関は一般的に時点tに依存するにもかかわらず、時系列データは一度しか観測できないという問題がある。このため、1時点に限定して統計量を推定するということはサンプル数1での推定と同じであり、統計量として意味を持たない。また、予測を考える場合でも、将来の観測値が存在しないため、自己相関などを評価することはできない。

そこで、時系列分析では時系列データを確率変数列からの1つの実現値としてみなし、その確率変数列の生成過程に関して何らかの性質や構造を仮定するというアプローチをとる。

このような確率変数列は確率過程もしくはデータ生成過程(DGP; data generating process)と呼ぶ。また、確率過程の構造のことを時系列モデルと呼ぶ。

参考文献

「経済・ファイナンスデータの計量時系列分析」(朝倉書店)